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基于 对 偶 图 正则 化 的 多 层 概 念 分 解 算 ; 
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摘 要 : 摘 要 : 为 了 进一步 挖掘 数据 间 的 隐藏 信息 ， 在 多 层 概念 分 解 (MCF) 算 法 的 框架 下 ， 考 虑 每 一 层 分 解 下 的 数 
据 流 形 和 特征 流 形 ， 提 出 了 一 种 基于 对 偶 图 正则 化 的 多 层 概 念 分 解 (DGMCF) 算 法 。 该 算法 通过 对 数据 的 逐 层 分 解 ， 以 
分 层 的 方式 学 习 ， 并 在 每 一 层 分 解数 据 中 构建 数据 空间 和 特征 属性 空间 的 拉 普 拉 斯 图 ， 用 于 反映 数据 流 形 和 特征 流 形 
的 多 元 几何 结构 信息 ， 从 而 能 够 更 好 地 从 复杂 数据 中 提取 出 更 有 效 的 特征 。 采 用 交替 和 迭代 的 方法 求解 算法 的 目标 函数 
并 证 明了 算法 的 收 你 性 。 通 过 在 三 个 真实 数据 库 (TDT2、PIE、COIL20) 上 的 实验 表明 ， 该 方法 在 数据 的 聚 类 表示 效果 
方面 优 于 其 他 方法 。 
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Dual-graph regularized multilayer concept factorization 


Zhang Xian, Ye Jun 
(School of Natural Sciences, Nanjing University of Posts & Telecommunications, Nanjing 210023, China) 


Abstract: In order to further excavate the hidden information between data, under the framework of multilayer concept 


factorization (MCF) algorithm, this paper proposed a novel algorithm called dual-graph regularized multilayer concept 
factorization (DGMCF) algorithm, which encoded the geometric structure information of data and feature spaces by constructing 


two Laplacian regularize term in each layer factorization, respectively. By this way, the proposed method could learn features in 


a hierarchical manner, and thus provided a better chance for learning meaningful features from the complex data. Moreover, it 
developed the iterative updating optimization scheme for DHCF, and also provided the convergence proof of the optimization 
scheme. Experimental results on TDT2 document datasets, PIE and COIL20 image datasets demonstrate the effectiveness of our 
proposed method. 
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EREA WAY XU UN NMF 和 CF 框架 中 的 。 将 流 形 学 习 的 思 


0 a 
引 ABI IUE A Æ NMF 和 CF 方法 中 ， 文 献 [12] 提 出 了 图 正则 的 非 
如 何 从 海量 的 高 维 数据 中 挖掘 出 隐藏 信息 和 有 效 数 据 ， 已 负 和 矩阵 分 解 (graph regularized NMF, GNME) 算法 ， 文 献 [13] 提 
成 为 现今 机 器 学 习 、 数 据 挖 掘 、 社 会 网 络 分 析 等 领域 的 研究 热 出 了 局 部 连续 概念 分 解 算 法 (locally consistent CF, LCCF)， 这 两 


AUO, 合适 的 数据 表示 方式 能 够 挖掘 出 数据 中 的 潜在 结构 , 有 种 方法 在 文本 聚 类 及 人 脸 识 别 等 应 用 中 均 取 得 了 不 错 的 效果 。 
利于 数据 进一步 的 处 理 。 目 前 ， 算 阵 分 解 方法 作为 一 种 有 效 的 然而 以 上 方法 均 是 对 数据 进行 单 层 分 解 。 已 有 文献 表明 
数据 处 理 方式 引起 了 许多 研究 者 的 关注 。 常 用 的 矩阵 分 解 算法 [415]， 对 数据 进行 单 层 分 解 很 难 获取 原始 数据 中 隐藏 的 层次 
包括 奇异 值 分 解 (singular value decomposition, SVD), JE ERE 息 ， 从 而 不 能 更 好 地 对 数据 进行 表示 。 因 此 ，X.Li et al.[16] 
分 解 (nonnegative matrix factorization, NMF) JIl ft Ze 4 fif 出 了 多 层 非 负 和 矩阵 分 解 (Multilayer NMF, MNMF) 算 法 ， 该 方法 
(concept factorization, CF)DG] 等 。 能 更 好 的 从 混合 信号 中 对 原 信号 进行 分 离 。 在 CF 的 框架 下 ， 
E NMF 和 CF 的 框架 下 ， 已 有 许多 文献 对 其 进行 了 拓展 。 ”Li 等 人 (6 提出 了 多 层 概念 分 解 (multilayer CF, MCF)， 通 过 利 
结合 标签 信息 , Liu 等 人 [9 提出 了 半 监 督 的 矩阵 分 解 方法 , 一 种 多 层 模型 , MCF 方法 能 够 从 高 维 数据 中 获取 数据 隐藏 的 层次 信 
是 约束 非 负 和 矩阵 分 解 (Constrained NMF, CNMF)， 另 一 种 是 约束 息 。 考 虑 到 数据 的 几何 结构 信息 ， 最 近 Li 等 人 HM" 在 MCF 方法 
概念 分 解 (constrained CF, CCF)I。 这 两 种 方法 都 是 将 标签 信息 的 基础 上 ， 在 每 一 层 概念 分 解 中 结合 流 形 学 习 的 思想 ， 提 出 了 
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GMCF 方法 不 仅 使 用 了 多 层 结构 ， 而 且 还 考虑 了 每 个 数据 层 的 
流 形 几 何 结构 ， 的 确 有 助 于 挖掘 数据 最 本 质 的 信息 。 


图 回归 的 多 层 概念 分 解 (graph regularized multilayer CF, GMCF). 
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1.8. 双 图 正则 化 概念 分 解 (GCF) 算 法 
Ye 等 人 0 在 概念 分 解 算 法 的 基础 上 同时 考虑 了 数据 和 特 
征 属 性 的 几何 结构 信息 ， 提出 了 双 图 正则 化 的 概念 分 解 算法 。 


GNMF、LCCF 和 GMCF 方法 都 利用 了 数据 的 空间 结构 信 


息 ， 它 们 可 以 有 效 地 提高 学 习 的 质量 ， 然 而 这 些 工作 只 考虑 ] 
数据 空间 的 分 布 结构 ， 没 有 利用 特征 属性 空间 的 结构 信息 。 最 
近 ， Shang 和 Ye 等 人 0829 分 别 在 非 负 和 矩阵 分 解 和 概念 分 解 杠 
提出 了 同时 考虑 了 数据 流 形 和 特征 流 形 的 几何 结构 的 双 图 
正则 化 非 负 矩阵 分 解 (Graph Dual regularization Nonnegative 
Matrix Factorization, DNMF) 算 法 和 双 图 正则 化 概念 分 解 (graph 
dual regularization concept factorization, GCF) 算 法 ， 均 取得 了 不 


SE 


错 的 效果 。 这 也 进一步 说 明了 不 但 数据 空间 的 几何 结构 信息 可 
以 有 效 地 提高 学 习 的 质量 ， 同 时 特征 属性 空间 的 几何 结构 信息 


也 能 对 学 习 的 质量 起 到 辅助 作用 。 
因此 ， 为 了 进一步 挖掘 数据 间 的 隐藏 信息 ， 同 时 利用 好 数 
据 的 几何 结构 信息 ， 在 多 层 概念 分 解 (MCF) 算 法 的 框架 下 ， 考 
虑 每 一 层 分 解 下 的 数据 流 形 和 特征 流 形 ， 提 出 了 一 种 基于 对 偶 
图 正则 化 的 多 层 概 念 分 解 算法 (dual graph regularized multilayer 
该 算法 在 每 一 层 分 别 在 数据 
空间 和 特征 空间 构建 图 来 反映 它们 各 自 的 分 布 流 形 几何 结构 信 
息 ， 以 此 来 获得 数据 的 几何 结构 信息 。 建 立 基于 对 偶 图 正则 化 
的 多 层 概 念 分 解 模型 ， 推 导出 该 算法 的 交替 友人 代 更 新 规则 ， 给 
出 该 算法 的 收敛 性 证 明 ， 实 验 结果 表明 了 算法 的 有 效 性 和 准确 
性 。 
1 ”相关 工作 
1.1 概念 分 解 (CF) 算 法 

HSEdESUBTE X [xp r] eR x 的 每 一 列 代表 一 
个 样本 。 CF 算法 的 目标 是 寻求 两 个 非 负 矩阵 W =[w]e R", 
V-[v,]eR"* , 其 中 KK 之 min{M,N} ,使 其 满足 ~ XWV” o 
CF 的 目标 函数 可 表示 为 


concept factorization, DGMCE). 


min Jc, -|X -XWV'|. sW, v >0 (1) 


相应 的 乘积 更 新 迭代 规则 在 文献 [5] 中 己 详 细 地 给 出 。 
1.2 多 层 概念 分 解 (MCF) 算 法 
面 对 一 些 复杂 数据 ， 特 别 是 病态 数据 ， Li 等 人 09 在 概念 
分 解 的 基础 上 采用 分 层 的 方法 ， 逐 层 地 对 数据 进行 概念 分 解 ， 

提出 了 多 层 概 念 分 解 (MCF) 算 法 .MCF f) 8485: i0 X 2 XWV, 

为 第 1 层 分 解 ， 将 V 作为 初始 数据 进行 第 二 层 分 解 得 
V, VW, . 依 此 类 推 , 得 到 第 工 层 的 概念 分 解 忆 ,= _ WV, 
则 最 终 x 2 XWVWyV,--W,V, : 
多 层 概念 分 解 的 目标 函 


数 可 表示 为 


min Jue, 7 |X, - XWy; sW, V, 20 O) 


相应 的 乘积 更 新 迭代 规则 在 文献 [5] 中 己 详 细 地 给 出 。 


w=WVWV,..W,, V=V,. 


其 目标 函数 可 表示 为 


min: Jac, = |x-xwv'[ 


E g 
ta T(V^ L, V) + BT(W" LyW) GJR: 


st. W,V >20 


L,-X'LyjX-X'(D'-S"')X- D" - 9" 
针对 式 (3) 的 乘积 更 新 迭代 规则 在 文献 [16] 中 己 详 细 地 给 出 。 


2 ”基于 对 偶 图 正则 化 的 多 层 概 念 分 解 (DGMCF) 


2.1 构建 对 偶 图 正则 项 

最 近 的 研究 表明 : 不 仅 观 测 到 的 数据 分 布 在 一 个 低 维 子 流 
形 上 ， 称 之 为 数据 流 形 ， 而 且 数 据 的 特征 也 分 布 在 一 个 低 维 子 
流 形 上 , 称 之 为 特征 流 形 (131。 在 对 数据 进行 概念 分 解 的 过 程 中 ， 
于 每 一 层 数据 分 解 后 均 涉及 数据 流 形 及 特征 流 形 的 几何 结构 
庆 息 获取 ， 所 以 在 每 一 层 分别 用 两 个 图 来 刻画 数据 流 形 和 特征 
流 形 的 几何 结构 ， 即 数据 图 和 特征 图 。 

第 1 层 分 解 下 数据 图 构造 

设 第 ] 层 分 解 下 图 的 顶点 集合 为 数据 集 {(x),,…,(x),) , 若 
第 j 个 样本 与 第 s 个 样本 互 为 近邻 点 ， 则 第 j 个 样本 与 第 s 个 
样本 之 间 存 在 一 条 边 ， 其 权 值 为 (s*),， 对 应 的 邻 域 和 矩阵 


S9, T fapiens 


0, otherwise. 


ATE P x, 的 p 最 近邻 数据 样本 集 。 


其 中 : N (a) 表示 第 1 


此 时 在 第 1 层 分 解 下 数据 图 的 拉 普 拉 斯 矩阵 可 表示 为 


-Sy A 


(L), - DI y, -[oD5,.- oT 为 待 求 的 第 ] 层 分 解 


下 的 低 维 数据 表示 ， 则 其 表示 的 平滑 度 为 


1 nd y 2 
73 3 (Sa) leoi - (v, | 
- Tr(V/ D V) - T«(V/ S; V,) 
- Tr(V/ (L) V) 
第 1 层 分 解 下 特征 图 构造 
类 似 地 ， 在 第 1 层 分 解 


将 图 的 顶点 集合 定义 为 特征 身 


Yr 


frD (dy) ， 对 应 的 领域 矩阵 定义 如 下 


| EN, (e): j,5= 


0, otherwise. 


可 得 到 在 第 | 层 分 解 下 特征 图 的 拉 普 拉 斯 矩阵 表示 为 
(Ly) =X; (Lp) X, = X; (Dj - Sj) X, =D; -SY ， 令 


录用 稿 


W, =| WD 


EAGER MAMIE 


Q1», | DERK 


a) -2 3G, 
n 0) 
- TrW/ DW) - TrW/ SP W,) 
= Tr(W; (L,),W,) 
2.2 构建 DGMCF 算法 的 目标 函数 
为 了 同时 考虑 样本 的 数据 流 形 和 特征 流 形 的 几何 结构 信息 ， 
TE MCF 算法 的 目标 函数 中 添加 基于 数据 图 和 特征 图 的 正则 项 ， 


得 到 DGMCTF 算法 的 目标 函数 为 


min :J poucr T X, - XWy; | «a(à),* &(Q), (8) 
s.t. W,V,20 
其 中 : w>0,8 >0 为 正则 化 参数 。 


可 重 写 为 


对 函数 


以 得 到 DGMCF 算法 的 更 新 迭代 公式 为 


的 非 凸 函数 ， 
法 可 得 到 问题 的 局 部 最 优 解 . 记 天 = X7X ， 则 目 


y= 23 DGMCF 目标 函数 的 求解 
d DGMCF 算法 中 的 


标 函 数 J pouer 是 关于 两 个 变量 W IV, 


因此 求 其 全 局 最 优 解 是 不 现实 的 。 利 用 交 蔡 迭代 
标 函 数 Jpewcr 


J pomer = Tr[(X,— XW,V/ ) (X, - XWV) 
sa Tr(V/ (L,) V,) - BTr(W (Ly) W,) 
-Tr(K, -2VW/ K, VW KW, ) 

*a Tr(V/ (L,),V,)  &Tr(W/ (Ly ),W,) 


4 Y siyi 9, 2 [o] 为 约束 全 20 fll V, 2 0 对 应 的 拉 格 
日 乘 子 ， 则 式 (9) 的 拉 格 朗 日 


函数 工 为 


L-T«(K, -2VW/ K, VW KWV’ ) 
+ a Tr(V; (L, )V)* BTr(w/ (Ly ) W.) 
t Tr W/) € Tr($V,) 


(10) 


KKT 最 优 性 条 件 可 


L 分 别 关 于 多 Ru y, 求 偏 导 , 1 


(KV, + F(S")W) 


a+) @ 1) 

(w);, < (m) (KWV/V, + BD™) WOR 
(t2) o E,W, *a(S") V), 2) 

(v, Ja $ (v, Ja (V,WIK,W, t aD VO 
DGMCF 方法 将 在 迭代 次 数 达到 最 大 时 停止 或 在 停止 准则 


| t 


1-1 
7pewcr —J pamer | *e 


满足 时 停止 迭代 。 


2.4 DGMCF 算法 的 收敛 性 证 明 


定义 1 
G(w.w) 为 


当 满 足 条 件 : G(ww)>F(w) 和 G(w,w)=F(w) ff, 
F(w) 的 个 辅助 函数 。 


引 理 1 EGA p 的 辅助 函数 ， 则 函数 忆 在 如 下 的 更 新 公 


式 下 为 单调 


下 降 的 。 


CI Ain X n í 
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(K+1) 


w - argmin G(w,w/*?) 
w 


证 明 
F(w 


Kd < G(w&*», y) « G(w,w*) = F(w®) i 


RAŽ J pamor 中 仅 


S (w), WERE w, 的 元 素 ,及 ,为 


5 (w), 元 素 有 关 的 项 ， 即 


Fu), -| XW tpT(W (DW) 09 
考虑 到 算法 是 基于 元 素 运算 的 ， 故 首先 证 明 Fu, ERN 
下 为 单调 下 降 的 。 事 实 上 由 于 : 
Fi, =(-2KV, * 2KWyV;V, +26(Ly), W.) 
Fia Ja = 2(K, Ja (V/v, hi * 2p((Ly ) » 
5| 38 2 函数 Gew, (m 9) 78 Fu 的 助 函数 。 
G(w,, (w)5 )) = F, NO 
E i)a (os ay ) (15) 
K r D" 1 
E NY, PUE Wa (w, (w) 
(w) 
证 明 由 定义 1, SER Gw, w) - Fr, ) i) o S Fu ) 00 的 
Taylor 展开 序列 为 
Fu W) =E uy, Ni) + Fey, (wi) W 7 (0) 
HE) a (V/V), sA), Kw, -(w) 
由 式 (15) 知 ， 证 明 GOw (w) ) > 五) Qv) 等 价 于 证 明 : 
(KWV/V,). + B(D"),W),, 
(w) (16) 


»(K), (V/V), + B((L,),) 


aa 


lim. 


ESKE: 


k 
(KWyVj/V,),, = 2 (KW, ju (v/v, ), > (KW, s (v/v, ); 


,> (w, pn (K, Ja (V/v, J 
AD"), W, ) ab -ppm Jaj (w) 2 BD"), Jan (w, jm 
MU » 


Fi), 0) 。 


之 pap" ) 7 (S "Man A E BL, )) 


>H 


Jb, TAROSRE, HbGQw.(w)2)2 


录用 稿 


助 函 数 。 


引 理 3 函数 Gwl D 73 Fi 的 
Gv. (v)5) = Ro), EE OO 7 (v) 
VWKW, D"), V "v 

yi PM uie 1 Da (y (ON 


(v js 


(7) 


ab. 


Fu: RO -Ix,- XWVv/[ + aT (L,) V) - 
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引 理 3 的 证 
证 明 参 见 引 理 2。 
定理 1 对 于 给 定 的 数据 y MERK W, 20, V, >0 ,提出 的 
AE TROXA (XS GO UU XD OD) 402) 可 使 得 目标 函数 
J paucr (WV) 单调 下 降 。 

证 明 由 引 理 2,3， 将 式 (15) (17) 分 别 代入 式 (13) 得 

(t) 
Qn -(w) (wi) T im «Qno wW 

s » Ma WVV) a e 25D 9), (18) 


B (w )® (KV, + B(S") Wi), 
^ (KWWV V, + B(D"),W,),, 
FF 


(+1) (1) (1) (vi); ( Vi Jo) 
(v, Ju m (v, pl (v Ja. T V 
VW, KW), *2a((D V), (19) 
— (A Heg 二 ASOV a 
^ (VW, KW, +a(D)V a 


明 过 程 同 引 理 2 的 证 明 ， 限 于 篇 幅 ， 此 处 具体 


甫 助 函数 ， 所 以 


于 式 (15) ODAMA Fu), 及 瓦 ) 的 


F), B Ey, 分 别 在 连 代 更 新 式 (11)(12) 下 为 单调 下 降 。 


2.5 DGMCF 算法 的 具体 步骤 

输入 : HOESOBEE y o 

1: 初始 化 参数 。 设 定 最 大 迭代 次 数 (IterMax) 及 误差 限 e ， 
设 定 近 邻 点 参数 六、 分 解 维度 到、 正则 化 参数 w 和 。 

2: WX =X, JFBBEUENXESOÓBEE w fly 。 

for | -1: , 

for f=1: IterMax (t 为 迭代 次 数 ) 

3: 计算 数据 图 和 特征 图 的 邻接 矩阵 (8")) I (s), o 

4: 计算 对 角 矩 阵 (D") Fl cp"), o 


5: Eyo, REREH Ww, wo. 
6: Mw, RERODES V, Ey 。 
7: 重 复 步骤 2 和 3, 直 至 终 Jewer| « € S 


m. Bub Ed X, =V; ; 


DU 


8: end for 


输出 : 分 解 后 的 矩阵 


W = II. n Ay = zi. 
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2.6 DGMCF 算法 复杂 度 分 析 


念 分 - 解 算法 


为 了 比较 本 文 所 提 算 法 和 其 他 算法 的 计算 复杂 度 ， 本 文 对 


CF、GCF、GMCF 和 DGMCF 算法 的 计算 复杂 度 进行 了 比 对 。 

过 4 次 迭代 更 新 后 ，CF 和 GCF 算法 的 计算 复杂 度 分 
OGN?K + N*M) 和 O(N?M + NM? TIN2K) 。 
DGMCF 算法 ， 均 对 数据 进行 了 工 层 的 分 解 ， 


数据 图 和 特征 图 所 需 的 计算 复杂 度 为 O(N? M + 
GMCF 和 DGMCF 算法 总 的 计算 复杂 
O(L(N*M + N'p-tN?K))» O(C(N?M + NM? +tN°K)) ° 


3 ”数值 实验 


聚 类 实验 
为 了 验证 


3.1 


本 文 所 提 算 法 


的 有 效 性 ， 


算法 与 CF、LCCF、MCF、GMCF 和 GCF 算法 进行 了 聚 类 上 
聚 类 实验 中 常 | 
息 (normalized mutual information, NMI)PWE JS 
标准 。 
€ TDT2 文本 数据 库 : 包含 了 56 类 的 10 021 个 文档 。 
© PIE 人 脸 数 据 库 : 选择 了 68 人 的 11 554 幅 图 像 ， 


分 别 在 文本 数据 库 
TDT2 和 图 像 数 据 库 PIE .COIL20 三 个 数据 集 上 将 所 提 DGMCF 


除 第 


3l 7g 
对 于 GMCF 和 
GMCF 算法 构 寻 
p 最 近邻 图 的 计算 复杂 度 为 O(N?M + N? p)» DGMCF 算法 创 到 
NM?) ， 所 以 
度 分 别 为 


n mar 


n 


准确 率 (accuracy, ACC) 和 归 一 化 互信 
聚 类 算法 的 评价 


38 个 人 164 幅 图 像 外 ， 其 余人 都 是 170 幅 图 像 。 本 实验 中 图 像 


的 大 小 为 32*32 的 灰 度 图 像 。 


图 像 ， 图 像 的 大 小 为 32*32 的 灰 度 图 像 。 
实验 中 , 对 于 MCF, GMCF 及 DGMCF 方法 
F r-210 ,并 且 每 一 层 的 最 大 迭代 次 数 设 


e COIL20 物体 图 像 数据 库 : 包含 了 20 个 物体 的 1440 fl 


结合 文献 [], 选 
为 500 次 .对 于 LCCF、 


GMCF, GCF 和 DGMCF 方法 ， 构 造 图 所 需 近邻 点 数 p 都 设置 


为 5。 对 不 同 的 聚 类 数 (k=2,…,10) ; DGMCF 算法 与 五 种 机 


H 


关 的 比较 算法 在 三 个 数据 库 上 20 次 实验 平均 的 聚 类 结果 如 表 


1 一 3 所 示 。 从 表 1 一 3 可 得 到 如 下 的 结论 : 
a) 在 TDT2 数据 库 中 ， 
ACC 和 NMI 4 


提高 了 1.94% 和 2.6596. 


比 GMCF 算法 分 别提 高 


本 文 所 提 算 法 比 传统 CF 算法 平均 
分 别提 高 了 11.23% 和 11.67%， 比 GCF 算法 分 别 
了 2.28% 和 


2.33%。 在 PIE 数据 库 中 , DGMCF 比 CF 算法 平均 ACC 和 NMI 


分 别提 高 了 13.70% 和 12.18%， 比 GCF 算法 分 别提 
2.45%。 比 GMCF 算法 分 别提 高 了 3.49% 和 2.90%。 在 COIL2 
数据 库 中 ，DGMCF 比 CF 算法 平均 ACC 和 NMI 分 别提 高 


高 了 3% 和 


0 


10.93% 和 13.1896, E, GCF 算法 分 别提 高 了 3.36% 和 4.02%。 比 


GMCF 算法 分 别提 高 了 4.02% 和 7.17%。 
b) LCCF 算法 利 


和 了 数据 分 布 的 几何 结构 信息 ， 所 取得 的 


聚 类 效果 比 CF 本 身 要 好 。 这 就 表明 数 ] 


居 分 布 的 几何 结构 在 进 


行 聚 类 工作 时 是 有 效 的 ， 特 别 对 图 像 数据 集 ， 它 


门 空间 分 布 具 


有 潜在 的 流 形 结构 。 在 三 个 数据 库 中 GCF 算法 所 得 效果 优 了 
LCCF 算法 , 这 是 因为 GCF 算法 不 但 考虑 了 数据 流 
构 信 息 ， 而 且 也 利用 了 特征 流 形 的 结构 信息 。 


的 几何 结 
另外 ，GMCF 算 
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c) 最 后 本 文 提出 的 DGMCF 算法 比 GCF 算法 的 聚 类 质量 ”中 所 取得 的 聚 类 效 


所 取得 的 效果 优 于 CF 及 LCCF, 
层 分 解 并 在 每 一 层 结合 数据 分 布 的 几何 结构 信息 ， 使 得 该 方法 每 一 
学 习 出 更 利于 数据 表示 的 特征 


Lo 


T 


x1 TDT2 数据 库 上 的 聚 类 实验 结果 


ChinaXiv 合 


accuracy/% normalized mutual information/% 

CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF 
2 86.13 94.23 95.34 906.45 96.21 97.31 67.28 | 84.18 83.49 85.38 85.94 87.79 
3 179.67 | 88.53 87.63 89.53 91.04 93.56 68.91 78.23 | 80.12 83.43 81.33 84.63 
4 178.29 | 86.65 85.46 87.16 89.45 91.28 69.78 77.58 79.94 81.16 80.64 84.46 
5 73.63 83.41 83.62 84.87 87.66 89.63 64.65 72.04 74.36 76.32 76.56 79.36 
6 74.82 81.26 81.47 83.47 84.61 85.42 67.86 74.86 75.28 77.73 77.41 | 80.24 
7 70.53 79.12 | 80.11 80.65 80.39 82.25 66.54 73.32 173.36 75.65 175.17 77.55 
8 67.04 74.28 74.87 76.75 75.20 78.32 68.31 69.73 | 70.23 73.43 72.58 75.76 
9 67.35 75.18 | 75.68 75.78 | 73.28 | 75.85 69.43 70.42 69.68 71.65 72.20 74.05 
10 68.65 69.24 71.56 71.94 71.86 73.54 69.81 | 69.59 70.45 71.87 71.85 13.76 

Avg. 74.01 81.32 81.75 82.96 83.30 85.24 68.06 74.44 75.21 71.40 | 77.08 79.73 

表 2 PIE 数据 库 上 的 聚 类 实验 结果 
accuracy/% normalized mutual information/% 

CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF 
2 57.23 62.89 66.43 68.35 67.14 70.38 48.62 60.43 62.17 604.23 64.59 67.35 
3 58.14 58.42 63.54 608.46 69.25 71.43 49.14 57.85 56.12 600.87 61.78 64.87 
4 58.36 60.12 64.02 71.24 71.71 72.57 | 47.23 53.54 55.45 58.63 58.38 61.56 
5 58.89 60.61 63.21 71.36 | 72.86 | 74.47 48.54 54.42 54.48 57.13 56.36 58.88 
6 57.63 59.01 62.53 608.11 69.67 73.54 46.13 51.28 52.87 53.76 54.78 57.34 
7 57.80 | 59.36 61.15 607.32 70.27 | 72.08 | 45.64 48.24 49.38 51.35 51.87 54.23 
8 55.97 . 56.12 60.89 65.76 64.03 69.35 41.29 45.11 46.12 48.56 49.41 51.54 
9 57.26 | 57.45 | 60.43 64.92 65.39 70.18 39.56 42.56 44.78 47.75 48.35 50.05 
10 56.85 57.07 61.32 604.53 64.10 67.45 37.45 40.76 42.35 44.85  Á 45.61 47.38 

Avg. 57.57 59.01 62.61 67.78 68.27 71.27 | 44.84 50.47 51.52 54.12 À 54.57 57.02 

表 3 COIL20 数据 库 上 的 聚 类 实验 结 
accuracy/% normalized mutual information/% 

CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF 
2 89.72 | 90.74 91.25 91.86 92.48  Á 95.06 71.13 74.51 74.89 76.47 80.40 84.28 
3 79. 34 84.22 85.03 86.12 85.36 90.31 63.21 68.69 73.02 75.23 76.35 | 80.45 
4 13. 04 178.14 79.34 | 80.28 82.69 87.43 606.38 70.63 72.16 74.26 77.43 81.26 
5 71.33 74.46 74.12 178.32 179.23 83.37 67.67 72.22 310.31 72.65 78.56 | 82.43 
6 15.2 179.59 | 78.75 | 80.56 82.90 84.52 65.33 68.81 608.63 70.24 74.89 78.37 
7 63.85 70.08 74.57 75.27 73.62 76.87 | 66.67 70.57 69.89 71.32 75.31 79. 29 
8 64. 64 71.64 72.55 173.24 75.51 178.48 67.28 | 70.67 | 71.96 | 72.35 76.45 80.77 
9 62.86 67.87 | 69.13 71.30 . 70.02 73.29 66.40 69.86 70.21 71.51 72.71 TT. 32 
10 62.15 65.71 | 66.69 67.37 | 68.44 71.16 66.27 68.69 69.28 70.38 70.63 74.76 

Avg. 71.35 75.83 76.83 78.26 78.92 82.28 66.70 | 70.52 71.15 72.71 75.86 | 79.88 


张 显 叶 军 : 基于 对 偶 图 正则 化 的 念 分 解 
要 原因 是 该 方法 通过 逐 更 好 ， 其 主要 原因 是 DGMCF 算法 利用 了 多 层 分 解 的 思想 ， 
层 分 解 中 结合 数据 流 形 及 特征 流 形 的 结构 信息 ， 能 够 更 
深层 次 地 挖掘 出 表征 数据 最 本 质 的 特征 ， 尤 其 是 在 图 像 数据 
E 果 比 文本 数据 集 要 更 加 的 明显 些 。 
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3.2 ”参数 选择 
DGMCF 算法 主要 有 
数 p 、 两 个 正则 化 参数 a 


四 个 参数 : 构造 对 偶 图 时 所 需 近 邻 
和 B 及 分 解 的 层 数 。 对 于 分 解 的 


数 工 的 讨论 , 在 文献 [17] 中 
面 讨论 DGMCF 算法 关于 参数 的 稳定 性 ， 


设 定 a=pB。| 


出 算法 参数 设 定 值 


情况 。 当 讨论 正则 化 参数 a H 
对 ， 设 定 正 
GCF 算法 进行 比较 ， 实 验 中 也 设 定 LCCF 


类 似 地 ， 讨 论 pH 
LCCF、GMCF 和 
GMCF 和 GCF 算法 中 的 
数值 。 分 别 在 文本 数据 库 
进行 了 


与 算法 的 聚 类 准确 率 (accuracy) 之 间 
时 ， 设 定 所 选择 的 近邻 点 数 p =5。 


已 经 给 出 了 详细 的 讨论 。 为 简便 起 
即 
的 变 


则 化 参数 a =100。 为 了 同时 能 


图 正则 参数 与 近邻 点 数 与 本 文 取 相 
TDT2 和 图 像 数 据 库 PIE、COIL20 


出 ， 如 图 1、2 所 示 。 
TDT2 database 
E 
B 
E 
< 
10” 10° 10' 10° 10° 10 
(a) regularization parametersa = B 
PIE database 
80 
40 
10^ 10° 10 10 10 10 
(b) regularization parameters a = p 
COIL20 database 
85 
RS 
- P -6. 
= = -LCCF 
—f— MCF 
85 —*— GMCF 
"A GCF 
- È - DGMCF 
60 
107 10 10' 10 10? 10 
(c) regularization parameters a = p 
图 1 各 种 算法 的 聚 类 准确 率 随 正则 化 参数 ( c = B ) 改 变 的 变化 情 
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5 
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比较 实验 ， 同 时 CF. MCF 算法 作为 参考 数值 也 一 并 给 


况 


KE ES 基于 对 偶 


TDT2 database 


al c X V 合 人 AHTI 
图 正则 化 的 多 层 概念 


(a) Number of neighborhoods p 
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(c) Number of neighborhoods p 


图 2 各 种 算法 的 聚 类 准确 率 随 构建 


图 1、2 所 示 的 结果 ， 


区 


边 数 ( 了 ) 改 变 的 变化 情况 


可 以 得 到 如 下 的 结论 : 
a) 提出 的 DGMCF 算法 对 于 两 个 正则 参数 来 i 


是 非常 稳 


定 的 。 当 两 个 正则 化 参数 取 值 在 1 一 1000 时 ， 算 法 能 够 取得 不 


错 的 聚 类 效果 。 同 时 DHCF 算法 本 身 所 得 的 结果 要 优 


法 。 


b) 提出 的 DGMCF 算法 的 聚 类 
于 过 大 的 最 近邻 数 生成 的 


过 大 而 降低 ， 这 是 


准确 率 随 着 


最 j 
图 不 再 能 准 


反映 样本 间 固 有 的 几何 结构 。 
结束 语 


本 文 提 出 了 一 种 基于 对 


4 


化 的 多 层 概念 分 解 算 法 ， 


利用 多 层 分 解 思想 ， 


数据 流 形 和 特征 流 形 的 


几何 结构 信息 ， 进 


步 挖掘 出 表征 数 ] 


给 出 了 DGMCF SEXES H s FLUR S 


四 最 本 质 的 特征 。 本 文 还 
尺 更 新 公式 ， 并 给 出 了 算 


录用 稿 


去 的 收敛 性 证 明 。 大 量 的 实验 结果 表明 提出 的 算法 比 己 有 相关 
算法 在 数据 表示 方面 的 性 能 更 好 。 
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